# **Guide Book**

# Deep Neural Network Inference on FPGA using TensorFlow

|                             | User Applicatio              | n                     |  |
|-----------------------------|------------------------------|-----------------------|--|
| Frameworks                  | Caffe                        | 1 TensorFlow          |  |
| Vitis Al Models             | Model Zoo                    | Custom Models         |  |
|                             | Al Compiler   Al Quan        | ntizer   Al Optimizer |  |
| Vitis AI<br>Development Kit | Al Profiler   Al Library     |                       |  |
|                             | Xilinx Runtime library (XRT) |                       |  |
|                             |                              |                       |  |
| Overlay                     | Deep Learning P              | rocessing Unit (DPU)  |  |

מבצעים: אלון נמירובסקי ועמית שטאובר מנחים: אינה ריבקין, עוז שמואלי

# תוכן עניינים

| 3  | מבוא                                                         |
|----|--------------------------------------------------------------|
|    |                                                              |
| 6  |                                                              |
| 10 | צריבת SD-Card צריבת                                          |
| 11 | של כרטיס FPGA של כרטיס Setup                                 |
| 17 | . Partial Flow For Resent-50 הקמת רשת, קומפילציה והרצת הרשת: |
| 17 | • תיאור כללי                                                 |
| 18 | שלב הקוונטיזציה•                                             |
| 21 | שלב הקומפילציה                                               |
| 24 | Full Flow For Mnist :הקמת רשת, קומפילציה, אופטימיזציה וסיווג |
| 24 | תיאור כללי                                                   |
| 25 | שלב הקוונטיזציה•                                             |
| 26 | שלב הקומפילציה                                               |
| 29 | שלב הסיווג / הרצה על הBoard                                  |
| 30 | אופטימיזציה וביצועים ●                                       |
| 33 | טיפים, בעיות ופתרון בעיות                                    |
| 34 | תובנות כלליות                                                |

# מבוא

# רקע כללי

- תחום המערכות הלומדות המבוסס על רשתות נוירונים צובר תאוצה בשנים האחרונות, בעקבות ההצלחה של מערכות אלו בפתרון בעיות מורכבות.
  - יישום של רשתות מתבצע ב-2 שלבים שלב האימון ושלב הסיווג.
  - שלב האימון הוא שלב מקדים המתבצע פעם אחת לכל רשת נתונה ולרוב מבוצע על מערכת בעלת עוצמת חישוב גבוהה כגון GPU. כיוון ששלב זה מבוצע פעם אחת לכל מערכת אין חשיבות עקרונית לזמן וכוח חישוב ששלב זה דורש.
- לעומת זאת בהרבה אפליקציות כגון רובוטים, מלייטים, רשתות חיישנים, טלפונים סלולאריים, רכבים אוטונומיים וכו׳ שלב הסיווג הוא שלב המתבצע בשטח עייי רכיבים המוגבלים בכוח החישוב, בהספק, ולעתים גם יש דרישה לעבודה בזמן אמת ולמחיר זול.
- כיוון שאחד המאפיינים הבולטים של שלב הסיווג ברשתות נוירונים הוא מקביליות, מימוש שלב זה דווקא על חומרה כגון FPGA מאפשר להגיע לביצועים גבוהים מאוד תוך שמירה על צריכת הספק נמוכה ומחיר זול. כמו-כן, מימוש החומרה על FPGA נותן גמישות ויכולת התאמה של הרשתות עבור בעיות שונות.
- כדי לקדם מימוש רשתות נוירונים בחומרה על רכיבי FPGA יצרני רכיבים אלו פתחו סט כלים חדש שמאפשר מימוש שלב הסיווג ואופטימיזציה של רשת החל משלב ההגדרה עד שלב המימוש בפועל, תוך שימוש בכלים סטנדרטיים.

#### מטרת הפרויקט

לחקור ולהעריך סט כלים חדש Vitis~AI עבור סיווג עייי רשת (סיווג עייי רשת נוירונים) על Xilinx של חברת הכיבי FPGA

TensorFlow בנית הרשת תעשה באמצעות

# דרישות הפרויקט:

- .1 הקמת המערכת על מחשב ייעודי.
- 2. בחירה והרצה של מודל שאומן מראש תוך שימוש בכל כלי התוכנה של חברת Xilinx
  - 3. מימוש סביבת הבדיקה.
- 4. ביצוע שינויים והתאמות במודלים במטרה לבדוק את גמישותם ויכולתם של הכלים.

model zoo ) לדוגמא שינוי מבנה הרשת (vs Custom), טיפוסי המשתנים (point (point)

- השוואה בין המימושים השונים תוך בדיקה של דיוק, throughput, גודל ואתגרים במימוש ושימוש בכלים.
- 2. הסקת מסקנות ודיווח על מגבלות, יכולות ובעיות של הכלים השונים בהם נעשה שימוש.



# רקע תיאורטי

רשת נוירונים או רשת קשרית הוא מודל מתמטי חישובי, שפותח בהשראת תהליכים מוחיים או קוגניטיביים המתרחשים ברשת עצבית טבעית ומשמש במסגרת למידת מכונה. רשת מסוג זה מכילה בדרך כלל מספר רב של יחידות מידע (קלט ופלט) המקושרות זו לזו, קשרים שלעיתים קרובות עוברים דרך יחידות מידע חבויות. שיטה זאת מאוד פופולארית ושימושית בתחומים רבים.

דוגמה לארכיטקטורה של רשת נוירונים:



ארכיטקטורה שימושית בתחומים של עיבוד תמונה היא ארכיטקטורה אשר נקראת convolutional ארכיטקטורה שימושית בתחומים של עיבוד תמונה היא ארכיטקטורה זו מבוססת על שכבות הנקראות שכבות קונבולוציה. כל נוירון cNN) neural network בשכבה זו מוזן רק מכמות מוגבלת של ערכים הנמצאים בסביבתו הקרובה. כל הנוירונים בשכבה מסוימת זהים, זאת אומרת שהם משתמשים באותם המשקלים (תכונה המכונה weight sharing).

דוגמה לארכיטקטורה של רשת קונבולציה:



באופן כללי, תהליך של יצירת מודל באמצעות רשת נוירונים מורכב ממספר שלבים:

- יצירת המודל הגדרת הארכיטקטורה והשכבות
  - CPU/GPU אימון המודל באמצעות •
  - ביצוע אופטימיזציות שונות על המודל המאומן •
- ביצוע סיווג של דאטה אמיתי יכול להתבצע בפלטפורמות שונות כגון: מעבד רגיל, גרפי או חומרה ייעודית. במידה ובוחרים באופציה השלישית (חומרה ייעודית), יש לתכנן וליצור אותה

בפרויקט שלנו אנו נרצה להתמקד בשלב האחרון של התהליך.

מחברת Xilinx אנו מקבלים את סביבת הVitis-Al. סביבה זאת מכילה כלים ומוצרים רבים:

- P ייעודי שנקרא Deep Learning Processing Unit DPU. חומרה ייעודית המשמשת להרצת
   שכבות רלוונטיות לרשתות נוירונים בצורה מהירה ואופטימלית
  - Al Zoo מאגר של מודלים מאומנים בסביבה
  - Al Quantizer מודלים יכולים לעבוד עם משקלים וBiasים עם ערך ממשי (כלומר Al Quantizer ). רכיב זה לוקח מודל שכזה וממיר את כל הפרמטרים לייצוג uint (ניתן להגדיר בדיוק כמה ביטים בהרצה)
- על גבי הכרטיס CPU וDPU של גבי הכרטיס בעורונים לסט פקודות DPU של גבי הכרטיס Al Compiler ●

באופן כללי אנו נעבוד עם שני מודלים נפוצים ומוכרים היום בתעשייה.

המכיל 70,000 המכיל MNIST המודל הראשון משמש לזיהוי ספרות מתוך מאגר תמונות שנקרא MNIST המכיל 20,000
 אלף תמונות בשחור-לבן בגדול 28\*28. להלן דוגמה מהמאגר:



• המודל השני נקרא Resnet-50. מודל זה משמש לזיהוי 1000 קטגוריות שונות בתמונות לאחר אימון בהתאם לdataset שהבאנו לו

# מטרות הפרויקט:

הערכת הכלים אשר קיימים בסביבה של Vitis-Al המשמשים להרצת מודלים חישוביים המבוססים רשתות קונבולציה על גבי חומרה ייעודית. כל אלה כוללים:

- Vitis-Al של Ecosystem הבנת הסביבה וה
- FPGA-ל TFp יצירת תהליך מלא של מעבר מ
- מאגר של מודלים מאומנים בסביבה).  $\circ$  שלב 1 שימוש במודל מאומן מוכן מה 200 (מאגר של מודלים מאומנים בסביבה). בחרנו בר-נו
  - FPGA) שלב 2 יצירת מודל ואימונו בעצמנו בTF העברתו סשלב 0 − יצירת מודל ואימונו בעצמנו
- במהלך כל שלב בדרך נשנה פרמטרים ונתעד את ההשפעות על התהליך מבחינת ביצועיםונכונות
  - יצירת מדריך מלא לביצוע כל התרחישים שאנו נבצע הכוללים פירוט נרחב של הבעיות
     שעולות בדרך ואופן פתרונן

# הקמת עמדה

חברת Xilinx מספקת לנו תשתית שלמה להרצת מערך הVitis-AI הדרוש להרצת מערכות בינה מלאכותית על הלוח ZCU104. נתאר כאן את תהליך הקמת התשתית על גבי המחשב האישי הכולל התקנת Virtual Machine ותוכנות שונות.

## סדר פעולות:

#### 1. הקמת VM על גבי המחשב האישי

- https://releases.ubuntu.com/18.04: ubuntu-18.04-desktop-amd64.iso הורדת קובץ (1.1
  - VMware player workstation יצירת VM אבאמצעות (1.2

התקנה סטנדרטית (כלומר להתקדם באשף כרגיל) הכוללת הקצאת 4GB ראם, 350GB הארד-דיסק ו $\theta$ ליבות.

# .VirtualBox כי אנחנו קיבלנו הודעת שגיאה שיש פקודות שלא נתמכות בVirtualBox.

#### :Docker התקנת

Docker היא פלטפורמה ייחודית שמאפשרת למשתמשים להריץ Containers שונים. כל Container מכיל סביבה שונה בעלת הגדרות וקונפיגורציה שהוגדרו מראש. בפרויקט שלנו אנחנו נעבוד עם Container מביבה שונה בעלת הגדרות וקונפיגורציה שהוגדרו מראש. בפרויקט שלנו אנחנו נעבוד עם Xilinx משפקים לנו.

(Program/References/PDFs\_Archive/1) - Install Docker Engine on Ubuntu יש לפעול לפי המדריך

המדריך כולל את כל השלבים שיש לבצע על מנת להתקין Docker על גבי המכונה הוירטואלית.

# : Pre-built container 3.

להעתיק מפרט כיצד ש להעתיק (Program/References/PDFs\_Archive/21) **Setting Up the Host** המדריך מקומית לסביבה שלנו על גבי הלינוקס את הקוד הרלוונטי ואת הפקודות של ההרצה :

git clone --recurse-submodules https://github.com/Xilinx/Vitis-Al

cd Vitis-AI

cd docker

./docker\_build\_cpu.sh

./docker\_run.sh xilinx/vitis-ai-cpu:latest

הערה: במדריך מצוינת גם אופציה של שימוש בBuild של GPU. כאשר ניסינו להשתמש בו נתקלנו בשגיאה, אך היא אינה רלוונטית עבור המשך המסמך.

#### גרסת הדוקר:

# Setting up docker-ce (5:19.03.13-3-0-ubuntu-bionic) ...

לאחר ההתקנה הראשונית, מדי פעם נרצה לצאת מהdocker ולהיכנס אליו חזרה. על כן, נרשום את מפקודות הרלוונטיות לרצת הdocker שוב.

#### : docker פקודות להרצת

/.docker\_run.sh xilinx/vitis-ai-cpu:latest

conda activate vitis-ai-tensorflow

- Docker Permission denied נציין כי אנו נתקלנו



ניתן לראות כפי שמופיע בתמונה לעיל, הפתרון הינו להריץ:

sudo chmod 666 /var/run/docker.sock

באופן כללי, כפי שמובא מהאתר הרשמי של Xilinx, יש ארבעה שלבים שיש לוודא שביצעתם:

- Four steps to set up and verify the Vitis AI environment on a host machine
- Step 1: Install the Docker engine
- Step 2: Ensure that the Linux user is in the group Docker
- Step 3: Clone the Vitis Al repository
- Step 4: Run the Docker container

#### 4. הורדת gBitorrent (לא הכרחי):

- במכונה הוירטואלית יש להריץ

sudo apt install qbittorrent

נציין שאין הכרח לבצע התקנה של qBitorrent על מנת להתקדם במדריך. זה הכרחי במידה והData שלכם לאימון נדרש להורדה דרך פלטפורמה זאת.

# :Petalinux התקנת ה

כחלק מהפרויקט בדקנו היתכנות של קימפול קוד הRTL של רכיב בדקנו על היתכנות של קימפול קוד במדריך של במדריך הבא במדריך במדריך הבא במדריך הבא בתוריד הבא במדריך הבא בתוריד הבא במדריך הבא בתוריד הבתוריד הבתוריד

Program/References/PDFs\_Archive/17

**הערה:** יש לשים לב שבעת ביצוע השלבים, אתם פועלים בהתאם לדרישות המקדימות בתחילת המדריך (גרסת petalinux, גרסת מכשיר וכוי).

.Xilinx בעזרת בעורת ה-DPU של חומרת של קוד של קימפול של קימפול של בצע האשית יש לבצע הישות של הא

בהמשך, מורידים מפה את שני הקבצים:

 $\underline{https://www.xilinx.com/support/download/index.html/content/xilinx/en/downloadNav/embedded-design-tools.html}$ 

```
    ♣ PetaLinux 2020.2 Installer (TAR/GZIP - 1.85 GB)
    MD5 SUM Value : 687b018f7502a4258bd633dc483bde79
    ♣ ZCU104 BSP (BSP - 1.35 GB)
    MD5 SUM Value : d5d1b32de55f9d67f59e9d5593238884
```

יש לפעול לפי הוראות ההדרכה. נציין כי בכמה מקרים ביצענו התאמות:

: פקודות בהן נעזרנו (בוצעו התאמות לכרטיס שלנו בהתאם לסוגו)

petalinux-config --get-hw-description=~/Vitis-AI/BootExp/VivadoOutput/prj --silentconfig petalinux-build

: נדרשנו לשנות את הקונפיגורציה בקובץ הבא

project-spec/meta-user/conf/petalinuxbsp.conf

: לערכים הבאים

```
#User Configuration
#OE_TERMINAL = "tmux"

IMAGE_BOOT_FILES_zynqmp = "BOOT.BIN boot.scr Image rootfs.cpio.gz.u-boot"
IMAGE_INSTALL_remove = "gstreamer-vcu-examples"
CONFIG_PRE_MIRROR_URL="http://petalinux.xilinx.com/sswreleases/rel-v2020/downloads"
CONFIG_YOCTO_NETWORK_SSTATE_FEEDS_URL="http://petalinux.xilinx.com/sswreleases/rel-v2020/aarch64/
sstate-cache"
IMAGE_INSTALL_append = "opency"
```

באופן כללי לאחר יצירת הפרויקט תקבלו את ההודעה הבאה:

```
projecta@ubuntu:-/Vitis-AI/BootExp/Petalinux$ petalinux-create -t project -s ../xilinx-zcu104-v2020.2-final.bsp
INFO: Create project:
INFO: Projects:
INFO: * xllinx-zcu104-2020.2
INFO: * xllinx-zcu104-2020.2
INFO: Mas been successfully installed to /home/projecta/Vitis-AI/BootExp/Petalinux/
INFO: New project successfully created in /home/projecta/Vitis-AI/BootExp/Petalinux/
```

#### בעיות נפוצות:

• במקרה של השגיאה הבאה:

petalinux-create: command not found

יש להיעזר בדיון הבא:

Program/References/PDFs\_Archive/18

: במידה ויש כישלון בתהליך הBuild, ניתן להיעזר במדריך הבא

Program/References/PDFs\_Archive/19

: 61 העברה לכרטיס זיכרון יש לבצע על פי המדריך הבא, עמוד

 $Program/References/PDFs\_Archive/20$ 

# קישורים חשובים:

• העמוד הרשמי של Vitis-Ai בולל הסברי התקנה שונים וכולל הסבר כללי על מה . אנחנו מקבלים בVitis-AI. מומלץ לעיין:

Program/References/PDFs\_Archive/3

• במידה ויש צורך לבצע התקנת Vitis AI Runtime) VART), ניתן להיעזר במדריך הבא GitHuba

Program/References/PDFs\_Archive/5

: Xilinx או במדריך הבא מהאתר של

Program/References/PDFs\_Archive/2

: Vitis-Ai של שימוש GitHub פרויקט נוסף -

Program/References/PDFs\_Archive/4

# צריבת SD-Card

צריבת הכרטיס הינה פעולה הכרחית לטעינה קוד התכן אל הלוח. אנו נעזרנו בתוכנת צריבה אשר נראית etcher ובקובץ מוכן שניתן על ידי Xilinx. יש להיעזר באתחול במדריך הבא:

Program/References/PDFs\_Archive/14

# שלבים (מופיעים גם במדריך):

:ZCU-104 עבור Imga את (1

 $\underline{https://www.xilinx.com/bin/public/openDownload?filename=xilinx-zcu104-dpu-v2020.1-v1.2.0.img.gz$ 

.xilinx-zcu104-dpu-v2020.1-v1.2.0 : שימו לב כי מדובר בגרסה

- 2) הורדת תוכנת Etcher והרצתה כמנהל
- 3) הכנסת כרטיס זיכרון מסוג sd-card למחשב
- -1 ולבחור את הקובץ שהורדנו בסעיף select image במסך שקיבלתם יש ללחוץ על



.Flash כעת התוכנה תזהה את כרטיס הזיכרון וכל מה שנדרש הוא לבצע

: טעת כרטיס הזיכרון שלכם צרוב וטעון עם קובץ BOOT כעת כרטיס הזיכרון שלכם צרוב וטעון עם אובץ

- (Verilog קוד הDPU שייצרב אל הPGA) שייצרב אל
  - ARM מערכת ההפעלה שתרוץ על מעבדי

# FPGA של כרטיס Setup

: בשלב הזה נרצה לבצע אתחול של 2CU-104. ראשית נציין מהם החיבורים הרלוונטים

- כבל חשמל (עיגול ירוק)
- כבל Micro-USB ישמש לתקשורת עם המחשב האישי בפרוטוקול UART (עיגול צהוב)
  - כבל Ethernet ישמש לתקשורת עם העולם החיצוני דרך רשת האינטרנט (עיגול סגול)



# : ZCU-104 Bring Up

- 1) יש לחבר את הכבלים כפי שצילמנו בתמונה לעיל.
- 2) יש לסדר את המתגים כמתואר למטה בתמונה (נקודה כחולה מעיד על למעלה ואדומה על למטה).



3) יש לבצע הדלקה של הלוח ולחכות כדקה.

תמונה כללית של הלוח לאחר הדלקה (ZCU104):



יש לוודא כי הנורה המסומנת דלוקה:



micro-usb כעת נחבר את הכרטיס למחשב האישי באמצעות כבל

חיבור זה יוצר שלושה חיבורי COM : יש לבחור את הCOM בעל הערך המינימלי . ניתן למצוא את זה תחבור זה יוצר שלושה חיבורי למנהל ההתקנים : כדי להגיע למנהל ההתקנים יש ללחץ למחשב שלי ולבחור מאפיינים :



בעמוד שייפתח יש לבחור במנהל ההתקנים:



ובדף ההגדרות שייפתח לפתוח את חיבורי הCom



כדי להתחבר לכרטיס ניעזר בתוכנת Putty שמאפשרת חיבור במגוון פרוטוקולים. בתוכנה נבחר בחיבור טורי (סריאלי):



ובמסך ההגדרות:



: המתאים שהופיע במחשב שלך ולעדכן את ה-Serial line המתאים שהופיע במחשב שלך ולעדכן את הירות העברת הנתונים

baud rate: 115200 bps

המסך המתקבל בחיבור הטורי:

```
COM7-PuTTY

Xilinx Zynq MP First Stage Boot Loader
Release 2020.1 Jun 22 2020 - 11:05:38
NOTICE: ATF running on XCZU7EV/silicon v4/RTL5.1 at 0xfffea000
NOTICE: BL31: v2.2(release):v1.1-5588-g5918e656e
NOTICE: BL31: Built : 10:53:46, Jun 22 2020

U-Boot 2020.01 (Jun 22 2020 - 10:56:22 +0000)

Model: ZynqMP ZCU104 RevC
Board: Xilinx ZynqMP
DRAM: 2 GiB
PMUFW: v1.1
EL Level: EL2
Chip ID: zu7ev
NAND: 0 MiB
MMC: mmc@ffi70000: 0
In: serial@ff000000
Out: serial@ff000000
Err: serial@ff000000
Bootmode: LVL_SHFT SD MODE1
Reset reason: EXTERNAL
Net:
ZYNQ GEM: ff0e0000, mdio bus ff0e0000, phyaddr 12, interface rgmii-id
```

לאחר ההתחברות אפשר לרשום ifconfig ולמצוא את כתובת הPI של הלוח.

: (root – איסמא וסיסמא ssh) במידה ויש צורך, ניתן להתחבר ללוח עם כבל רשת בsh) במידה ויש צורך, ניתן להתחבר ללוח



# העברת קבצים מול הלוח

ניתן להוריד WinSCP – תוכנה אשר משמשת להעברת קבצים שהמחשב הלוקלי למחשב המרוחק עם תצוגה למשתמש.

#### לחלופין, ניתן להשתמש בפקודות הבאות:

פקודה להעביר תיקייה מהמחשב הלוקאלי למחשב המרוחק:

 $scp-rc: \verb|\move2fpga| root@192.168.1.26: \verb|\move2fpga| Vitis-AI/VART/samples/images|$ 

במקרה שמתקבלת תשובה לתמונה אחת בלבד יש לפעול לפי האתר הבא:

פקודת להעברת קובץ:

scp c:\move2fpga\dpu\_resnet50\_tf\_0.elf root@192.168.1.26: ~/Vitis-AI/VART/samples/images

: אשר מגיע יימוכןיי על גבי הכרטיס resnet-50 אדוגמה להרצה של מודל

: כאשר הרצנו

 $root@xilinx-zcu104-2020\_1: \verb|~/Vitis-AI/VART/samples/amitalon_resnet50#./resnet50| dpu_resnet50\_tf\_0.elf$ 

: שקומפל שקומפל Cה נלקח מפה

Program/References/PDFs\_Archive/16

# Partial Flow For Resent-50:הקמת רשת, קומפילציה והרצת הרשת

# • תיאור כללי

בשלב זה אנו מריצים מודל שהוכן על ידי Xilinx והיה קיים ב200. מדובר באחת העוצמות של Xilinx אשר מספקת ללקוחותיה מודלי AI שהוכנו מראש. כמובן, שניתן היה להשתמש גם במוצר הגולמי שכבר מגיע מוכן לריצה על הלוח. עם זאת, אנחנו לקחנו אך ורק את המודל בתצורתו הגולמית (כפי שיצא מTF) כדי לנסות ולהעביר חוטר שכולל את כל הכלים של Xilinx לביצוע קוונטיזציה, קימפול והרצה.

לשם הרצה בחומרה, אנחנו מעוניינים לעבור לייצוג המשקלים במודל בצורה של מספרים שלמים. כאן בדיוק שלב הקוונטיזציה נכנס לפועל. מטרתו ראשית לבצע קוונטוט למשקלים כדי למודל לרוץ ביעילות על הFPGA. בנוסף הוא מאפשר לבצע מיני אופטימזציות – עליהן נדבר בהמשך.

|                                   | :לשימושכם, מספר מדריכים שבהם נעזרנו לביצוע התהליכים שנפרט עליהם |
|-----------------------------------|-----------------------------------------------------------------|
|                                   | :Xilinx הדרכה כללית מאתר:                                       |
| Program/References/PDFs_Archive/6 |                                                                 |
|                                   | :(שימושי באופן כללי בשלב זה) validation set הורדת               |
| Program/References/PDFs_Archive/7 |                                                                 |
|                                   | הורדת מודל:                                                     |
| Program/References/PDFs_Archive/8 |                                                                 |

#### : אנו בחרנו להשתמש במודל הבא

| 47 | tf_resnetv1_50_imagenet_224_224_6.97G_1.2 | 207MB | 55576ff6afdc700ee00664642e19a6fa |
|----|-------------------------------------------|-------|----------------------------------|
|----|-------------------------------------------|-------|----------------------------------|

תפת עם בהחלטה מודל AI לסיווג עצמים בתמונות. המודל שהונחינו להשתמש בהחלטה משותפת עם AI המנחים.

2) נעבוד כעת על סביבת ה-Linux (אלא אם נאמר אחרת). יש ליצור תיקייה חדשה בתוך התיקיות שנעצרו לאחר התקנת הImg של ה-Docker.

# שלב הקוונטיזציה •

: כדי לבצע את שלב הקוונטיזציה, נדרשים שלושה אמצעים

| No. | Name         | Description                                                                                                                                                                                                                                                                                            |
|-----|--------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1   | frozen_graph | Frozen Resnet-50 model.                                                                                                                                                                                                                                                                                |
| 2   | calib_images | Before launching quantization for ResNet-50, prepare the calibration dataset. You can download 100 to 1000 images of ImageNet dataset from http://academictorrents.com/collection/imagenet-2012 or http://www.image-net.org/download.php and then change the calibration dataset path in the input_fn. |
| 3   | input_fn     | A Python function to read images in the calibration dataset and perform pre-processing (e.g. resize, normalization).                                                                                                                                                                                   |

על כן, יצרנו תיקייה בשם imagenet\_images עם אלף תמונות מיצרנו תיקייה בשם validation setה על כן, יצרנו תיקייה בשם תיקייה בשם imagenet\_images עם אלף תמונות תשמש לכיול.

בנוסף, יצרנו קובץ פייתון input\_fn כפי שמוגדר במדריך 6:

```
import tensorflow as tf
import os

_R_MEAN = 123.68
_G_MEAN = 116.78
_B_MEAN = 103.94

class Data_loader(object):
    def __init__(self, out_height, out_width, smallest_side=256):
        self._sess = tf.Session()
        self._out_height = out_height
        self._out_width = out_width
        self._smallest_side = smallest_side

self._decode ipeg data = tf.placeholder(dtype=tf.string)
```

כמו כן יצרנו קובץ imagenet\_calib.txt. הוא מכיל אלף שורות מן הצורה:



להעברה לכרטיס, ניתן להיעזר בפקודה להעתקת אלף הקבצים הראשונים:

cp `ls | head -1000` ../../Vitis-AI/projecta/imagenet\_images

לאחר כל שלבים אלה ניתן להריץ שלב הקוונטיזציה.

הפקודה שהרצנו לבצע את תהליך הקוונטיזציה:

vai\_q\_tensorflow quantize --input\_frozen\_graph resnet\_v1\_50\_inference.pb --input\_nodes input --input\_shapes ?,224,224,3 --output\_nodes resnet\_v1\_50/predictions/Reshape\_1 -- input\_fn input\_fn.calib\_input --method 1 --gpu 0 --calib\_iter 20 --output\_dir ./quantize\_results

#### ההודעה בסיום ההרצה:

```
projecta@ubuntu: /workspace/projecta
File Edit View Search Terminal Help
2020-11-07 02:50:50.280900: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 160563
200 exceeds 10% of system memory.
2020-11-07 02:50:50.623561: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 160563
200 exceeds 10% of system memory.
2020-11-07 02:50:50.818927: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 160563
200 exceeds 10% of system memory.
2020-11-07 02:50:51.604160: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 160563
2000 exceeds 10% of system memory.
2020-11-07 02:50:51.864837: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 802816
00 exceeds 10% of system memory.
INFO: Float Graph Check Done.
2020-11-07 02:50:54.387672: W tensorflow/contrib/decent_q/utils/quantize_utils.cc:538] Convert mean no
de resnet_v1_50/pool5 to AvgPool
INFO: Calibration Done.
INFO: Generating Deploy Model...
[DEPLOY WARNING] Node resnet_v1_50/predictions/Reshape_1(Type: Reshape) is not quantized and cannot be
deployed to DPU,because it has unquantized input node: resnet_v1_50/predictions/Softmax. Please deplo
v it on CPU.
INFO: Output:
quantize_eval_model: ./quantize_results/quantize_eval_model.pb
deploy_model: ./quantize_results/deploy_model.pb
(vitis-ai-tensorflow) projecta@ubuntu:/workspace/projecta$ ll
```

#### תקלות נפוצות

- תקלת core dumped הסיבה לתקלה זו נבעה אצלנו כתוצאה מהקצאה של מקום בכונן שאין בו מקום, לכן חשוב להקצות מקום בכונן עם הרבה מקום, במקרה של המחשב הנוכחי זה היה כונן D.

# • שלב הקומפילציה

: Xilinx מדריך כללי מאתר

Program/References/PDFs\_Archive/9

שלב הקומפילציה הוא שלב שבו אנו לוקחים את הפלט של שלב הקוונטיזציה ומעבירים אותו למעשה לתוצר שהרכיב שלנו מצפה לקבל. בסופו של דבר, זה יהיה ייצוג של המודל עבור ה $\mathrm{DPU}$  (קוד החומרה).

הפקודה לביצוע קומפילציה (הרצנו אותה מתוך אותה תיקייה שהרצנו את הפקודה של הquantization):

vai\_c\_tensorflow --frozen\_pb ./quantize\_results/deploy\_model.pb --arch /opt/vitis\_ai/compiler/arch/dpuv2/ZCU104/ZCU104.json --output\_dir model --net\_name resnet50\_tf

הערה: שימו לב כי הפקודה באתר איננה מדויקת, הפקודה שרשמנו כאן היא המדויקת.

#### הפלט שקיבלנו:

.VITIS\_AI Compilation - Xilinx Inc \*

[VAI\_C][Warning] layer [resnet\_v1\_50\_SpatialSqueeze] (type: Squeeze) is not supported in .DPU, deploy it in CPU instead

[VAI\_C][Warning] layer [resnet\_v1\_50\_predictions\_Softmax] (type: Softmax) is not supported .in DPU, deploy it in CPU instead

"Kernel topology "resnet50\_tf\_kernel\_graph.jpg" for network "resnet50\_tf

"kernel list info for network "resnet50\_tf

Kernel ID: Name

resnet50\_tf\_0: 0

resnet50\_tf\_1 : 1

Kernel Name : resnet50\_tf\_0

Kernel Type : DPUKernel

Code Size : 0.59MB

Param Size: 24.35MB

Workload MACs: 6964.51MOPS

IO Memory Space : 2.25MB

,Mean Value : 0, 0, 0

Total Tensor Count: 59

Boundary Input Tensor(s) (H\*W\*C)

input: 0(0): 224\*224\*3

Boundary Output Tensor(s) (H\*W\*C) resnet\_v1\_50\_logits\_Conv2D: 0(0): 1\*1\*1000

Total Node Count: 58

Input Node(s) (H\*W\*C)

 $resnet\_v1\_50\_conv1\_Conv2D(0): 224*224*3$ 

Output Node(s) (H\*W\*C)

 $resnet\_v1\_50\_logits\_Conv2D$ (0): 1\*1\*1000

Kernel Name : resnet50\_tf\_1

-----

Kernel Type : CPUKernel

Boundary Input Tensor(s) (H\*W\*C)

 $resnet\_v1\_50\_SpatialSqueeze : \texttt{0(0)}: \ 1*1*1000$ 

Boundary Output Tensor(s) (H\*W\*C)

resnet\_v1\_50\_predictions\_Softmax: 0(0): 1\*1\*1000

Input Node(s) (H\*W\*C)

resnet\_v1\_50\_SpatialSqueeze: 1\*1\*1000

# Output Node(s) (H\*W\*C)

# $resnet\_v1\_50\_predictions\_Softmax: 1*1*1000$

: נציין כי קיבלנו תיקיית מודל ולהלן הפירוט שלה

# Full Flow For Mnist :הקמת רשת, קומפילציה, אופטימיזציה וסיווג

• תיאור כללי

בשלב זה אנו יוצרים מודל בצורה מלאה, החל מכתיבתו בTF ועד הרצת שלב הסיווג על גבי הכרטיס. בחרנו לעבוד על מימוש מודל פשוט לזיהוי ספרות בתמונות על מאגר ידוע שנקרא mnist:



: התבססנו על המדריך הבא

Program/References/PDFs\_Archive/10

References/Vitis-AI-Tutorials-MNIST-Classification-TensorFlow.zip : מיקום בגיט

1) השלב הראשון היה באופן טבעי יצירת המודל. נעזרנו בפלטפורמת הColab בשפת python בעזרת ספריות TensorFlow ,keras. אנו מצרפים את הקוד הסופי כנספח.

באופן כללי הקוד מחולק לשני חלקים עיקריים : יצירת המודל בפני עצמו ואימונו כדי לקבל את הפרמטרים המעודכנים. בשלב הזה קיבלנו את הגרף של המודל (graph). בחלק השני ביצענו "הקפאה" של הגרף וזאת כדי שנוכל לייצא אותו כקובץ PB. זהו סוג הקובץ שנדרש בשלב הקוונטיזציה.

References/Start.ipynb : מיקום בגיט מצורף מיקום מצורף

# הערות ובעיות נפוצות שנתקלנו בהן:

יון בפורום בנוגע להתאמה בין גרסאות של טנזור) ב tensorflow לא ניתן להעזר בגרסה ל tensorflow ומעלה (דיון בפורום ב

Program/References/PDFs\_Archive/12

לא ניתן לעבוד עם שכבות FC, יש לעבוד עם שכבות קונבולוציה.

Program/References/PDFs\_Archive/13

- נוצרה בעיה כאשר נעזרנו בשכבת dense-softmax, המרנו את השכבה לשכבת סיגמואיד והגענו לתוצאה מעולה.
  - את תהליך שמירת הגרף כתבנו ונעזרנו גם בקוד שמופיע בדיון הזה:

Program/References/PDFs\_Archive/11

: השלב הבא היה יצירת קבצי קליברציה (2

References/trainimages\_calib\_original.zip : מיקום בגיט

סקריפטים ליצירת התמונות:

References/4\_quant.zip : מיקום בגיט

# שלב הקוונטיזציה •

תזכורת:

כדי לבצע את שלב הקוונטיזציה אנו זקוקים לשלושה דברים:

| No. | Name         |
|-----|--------------|
| 1   | frozen_graph |
| 2   | calib_images |
| 3   | input_fn     |

את שתי השורות הראשונות יש לנו מסעיף קודם.

image\_input\_fn.py : כעת ניעזר בקוד מהמדריך שציינו בתחילה מהמדריך שניינו

References/ image\_input\_fn.ipynb : מיקום בגיט

2) יש להגדיר בסקריפט מחדש את השם של הInput node (נלקח מהלוגים של הקפאת המודל בCollab). השורה מסומנת בכתום.

```
calib_image_list = './callib.txt'
calib_batch_size = 10

def calib_input(iter):
    images = []
    line = open(calib_image_list).readlines()
    for index in range(0, calib_batch_size):
        curline = line[iter * calib_batch_size + index]
        calib_image_name = curline.strip()

    # open image as grayscale
    image = cv2.imread(calib_image_name, cv2.IMREAD_GRAYSCALE)

    # reshape
    image = image.reshape(28,28,1)

# normalize
    image = image/255.0

images.append(image)
return {"flatten_input_1": images}
```

: פקודת להרצת תהליך הקוונטיזציה (3

vai\_q\_tensorflow quantize --input\_frozen\_graph frozen\_graph.pb --input\_nodes conv2d\_input\_1 --input\_shapes ?,28,28,1 --output\_nodes flatten\_1/Reshape --input\_fn image\_input\_fn.calib\_input --method 1 --gpu 0 --calib\_iter 10 --output\_dir ./quantize\_results

• שלב הקומפילציה

1) פקודה להרצת תהליך הקומפילציה:

vai\_c\_tensorflow --frozen\_pb ./quantize\_results/deploy\_model.pb --arch /opt/vitis\_ai/compiler/arch/dpuv2/ZCU104/ZCU104.json --output\_dir model --net\_name mnist\_tf

: הפלט לאחר קומפילציה

:INFO: Output

quantize\_eval\_model: ./quantize\_results/quantize\_eval\_model.pb

deploy\_model: ./quantize\_results/deploy\_model.pb

(vitis-ai-tensorflow) projecta@ubuntu: /workspace/projecta-mnist\$ vai\_c\_tensorflow -- frozen\_pb ./quantize\_results/deploy\_model.pb --arch /opt/vitis\_ai/compiler/arch/dpuv2/ZCU104/ZCU104.json --output\_dir model --net\_name mnist\_tf

\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*

.VITIS\_AI Compilation - Xilinx Inc  $^{\star}$ 

\*\*\*\*\*\*\*\*\*\*\*\*

[VAI\_C][Warning] layer [activation\_1\_Sigmoid] (type: Sigmoid) is not supported in DPU, .deploy it in CPU instead

"Kernel topology "mnist\_tf\_kernel\_graph.jpg" for network "mnist\_tf

"kernel list info for network "mnist\_tf

Kernel ID: Name

mnist\_tf\_0: 0

 $mnist_t_1 : 1$ 

Kernel Name : mnist\_tf\_0

-----

Kernel Type : DPUKernel

Code Size : 3.46KB

Param Size: 0.08MB

Workload MACs: 3.08MOPS

IO Memory Space : 5.86KB

,Mean Value : 0, 0, 0

Total Tensor Count: 5

Boundary Input Tensor(s) (H\*W\*C)

conv2d\_input\_1: 0(0): 28\*28\*1

Boundary Output Tensor(s) (H\*W\*C)

 $conv2d_3_1_Conv2D: 0(0): 1*1*10$ 

Total Node Count: 4

Input Node(s) (H\*W\*C)

 $conv2d_4Conv2D(0) : 28*28*1$ 

Output Node(s) (H\*W\*C)

 $conv2d_3_1_Conv2D(0): 1*1*10$ 

Kernel Name : mnist\_tf\_1

-----

Kernel Type : CPUKernel

Boundary Input Tensor(s) (H\*W\*C)

 $activation_1_Sigmoid: 0(0): 1*1*10$ 

Boundary Output Tensor(s) (H\*W\*C)

activation\_1\_Sigmoid: 0(0): 1\*1\*10

Input Node(s) (H\*W\*C)

activation\_1\_Sigmoid : 1\*1\*10

Output Node(s) (H\*W\*C)

 $activation\_1\_Sigmoid: \ 1*1*10$ 

# שלב הסיווג / הרצה על הBoard

שלב הסיווג הוא השלב שבו אנו בסופו של דבר מריצים את המודל על data שלב הלוח. בסופו של דבר מריצים את המודל על גבי הלוח. דבר, זאת המטרה הסופית בשימוש כל הכלים של VitisAI ובלוח.

- (שם כללי) אבי הרכיב (שם כללי) ראשית, יש ליצור תיקייה חדשה על גבי
- ואת מהמדריך לתוך מהמדריך זאת app\_mt.py (2

References/ app\_mt.py : מיקום בגיט

3) בנוסף העברנו תמונות לסיווג ואת קובץ הELF של הקומפילציה (תוצר שלב הקומפילציה)

| Name               | Size  | Changed             | Rights    | Owner |
|--------------------|-------|---------------------|-----------|-------|
| <b>t</b>           |       | 12/07/2020 07:21:33 | rwxr-xr-x | root  |
| images .           |       | 12/07/2020 08:17:31 | rwxr-xr-x | root  |
| dpu_mnist_tf_0.elf | 87 KB | 19/12/2020 17:00:49 | rw-rr     | root  |
| app_mt.py          | 6 KB  | 20/12/2020 12:04:07 | rw-rr     | root  |

: test setה כעת ביצענו את הרצת (4

python3 app\_mt.py -m dpu\_mnist\_tf\_0.elf

-t לשינוי threads להוסיף

```
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m dpu_mnist_tf_0.elf
Command line options:
    --image_dir : images
    --threads : 1
    --model : dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting l threads...
AmitAlon log: dpu function
FPS=2898.ll, total frames = 10000 , time=3.4505 seconds
Correct: 9819 Wrong: 181 Accuracy: 0.9819
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m dpu_mnist_tf_0.elf -t 6
Command line options:
    --image_dir : images
    --threads : 6
    --model : dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting 6 threads...
AmitAlon log: dpu function
FPS=3700.52, total frames = 10000 , time=2.7023 seconds
Correct: 9819 Wrong: 181 Accuracy: 0.9819
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist#
```

.6-ו שונה, 1 ו-6. בוצע על מסי

# כפי שניתן לראות הצלחנו לייצר מסלול מקיף:

התחלנו במודל בפייתון, העברנו אותו אימון ולאחר מכן ביצענו קוונטיזציה. המשכנו לקימפול המודל שיתאים לDPU וללוח שלנו. בהמשך, יצרנו קובץ פייתון שיודע להריץ את שלב הסיווג והרצנו את הסיווג עצמו על הרכיב וקיבלנו דיוק מרשים תוך latency נמוך.

# אופטימיזציה וביצועים •

# בדיקת ביצועים לאחר שינוי פרמטרים:

| ביצועים                                                                                                                                           | תיקייה                                                                                                                                                                              | פרמטר<br>שינוי                                                                                                           | שלב<br>ארכיטקטוני            | מבוצע<br>על ידי |
|---------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------|------------------------------|-----------------|
| Accuracy 98.25% 2. 221[Sec] 0. 02221 [\frac{\mu Sec}{Pic}]                                                                                        | <del>,</del>                                                                                                                                                                        | -                                                                                                                        |                              | Colab           |
| Accuracy 98.19% 3.4864[Sec] 0.034864 [μSec] Pic]                                                                                                  | Modifications/Quantization/<br>Original                                                                                                                                             | -                                                                                                                        | -                            | Board           |
| ביצועים ירודים כתוצאה מחוסר<br>תמיכה של המערכת<br>הערה – תהליך<br>הקוונטיזציה/קומפילציה<br>עבדו, אך בפועל בזמן<br>הסיווג קיבלנו ביצועים<br>ירודים | Modifications/Quantization/<br>Weight_bit_16  INT8 is only supported for DPU deployment. You can use 16 and 32 bits for simulation, but you won't be able to deploy this on DPU hw. | weight_bit  Bit width for quantized weight and bias.  הערך הדיפולטי: 8. שינוי שביצענו:                                   | Quantization<br>קוונטיזציה – | Board           |
| ביצועים ירודים כתוצאה מחוסר<br>תמיכה של המערכת<br>הערה – תהליך<br>הקוונטיזציה/קומפילציה עבדו, אך<br>בפועל בזמן הסיווג קיבלנו ביצועים<br>ירודים    | Modifications/Quantization/Activation_bit_16  INT8 is only supported for DPU deployment. You can use 16 and 32 bits for simulation, but you won't be able to deploy this on DPU hw. | activation_bit  Bit width for quantized activation.  הערך הדיפולטי: 8. שינוי שביצענו:                                    | Quantization<br>קוונטיזציה – | Board           |
| Accuracy 98.22% 3.4645[Sec] 0.034645 [\frac{\mu Sec}{Pic}]                                                                                        | Modifications/Quantization/<br>Calib_Iter_100                                                                                                                                       | calib_iter  The iterations of calibration. Total number of images for calibration = calib_iter * batch_size.             | Quantization<br>קוונטיזציה – | Board           |
| Accuracy 98.33% 3.4648[Sec] 0.034648 [\frac{\mu Sec}{Pic}]                                                                                        | Modifications/Quantization/<br>Method_0                                                                                                                                             | שתי שיטות על<br>פיהן ניתן<br>לקוונטט.<br>שיטה 0 יוצרת<br>טווח רחב של<br>קוונטיזציה<br>ושיטה 1<br>מאפשרת טווח<br>צר יותר. | Quantization<br>קוונטיזציה – | Board           |
| Accuracy 98.19% 2. 5925[Sec] 0. 025925 [μSec] Pic]                                                                                                | -                                                                                                                                                                                   | threads Number of threads. Default is 1                                                                                  | – Inference<br>סיווג         | Board           |

#### : ללא שינויים

```
root@xilinx-zcul04-2020_l:~/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m dpu_mnist_tf_0.elf
Command line options:
    --image dir : images
    --threads : 1
    --model : dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting l threads...
AmitAlon log: dpu function
FPS=2868.33, total frames = 10000 , time=3.4864 seconds
Correct: 9819 Wrong: l81 Accuracy: 0.9819
root@xilinx-zcul04-2020_l:~/Vitis-AI/VART/samples/projecta-mnist#
```

#### Method 0

```
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m Method_0/model/dpu_mnist_tf_0.elf
Command line options:
    --image dir : images
    --threads : 1
    --model : Method_0/model/dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting 1 threads...
AmitAlon log: dpu function
FPS=2886.14, total frames = 10000 , time=3.4648 seconds
Correct: 9833 Wrong: 167 Accuracy: 0.9833
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist#
```

# Calib:

```
root@xilinx-zcul04-2020_l:~/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m Calib_Iter_100/model/dpu_mnist_tf_0.elf
Command line options:
    --image_dir : images
    --threads : 1
    --model : Calib_Iter_100/model/dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting 1 threads...
AmttAlon log: dpu function
FPS=2885.50, total frames = 10000 , time=3.4656 seconds
Correct: 9822 Wrong: 178 Accuracy: 0.9822
root@xilinx-zcul04-2020_l:~/Vitis-AI/VART/samples/projecta-mnist#
```

# : Activation

```
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m Activation_bit_16/model/dpu_mnist_tf_0.elf
Command line options:
--image_dir : images
--threads : 1
--model : Activation_bit_16/model/dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting 1 threads...
AmitAlon log: dpu function
FPS=2841.37, total frames = 10000, time=3.5194 seconds
Correct: 980 Wrong: 9020 Accuracy: 0.098
root@xilinx-zcul04-2020_1:~/Vitis-AI/VART/samples/projecta-mnist#
```

# : Weight

```
root@xilinx-zcul04-2020_1:-/Vitis-AI/VART/samples/projecta-mnist# python3 app_mt.py -m Weight_bit_16/model/dpu_mnist_tf_0.elf
Command line options:
    --image_dir : images
    --threads : 1
    --model : Weight_bit_16/model/dpu_mnist_tf_0.elf
Pre-processing 10000 images...
Starting 1 threads...
AmitAlon log: dpu function
FPS=2885.55, total frames = 10000 , time=3.4655 seconds
Correct: 980 Wrong: 9020 Accuracy: 0.098
root@xilinx-zcul04-2020_1:-/Vitis-AI/VART/samples/projecta-mnist#
```

# טיפים, בעיות ופתרון בעיות

| איך ניתן לתקן                  | מה היא אומרת                  | הבעיה                       |
|--------------------------------|-------------------------------|-----------------------------|
| נתנו למכונה הוירטואלית מרחב    | בתחילה ניסינו ליצור מכונה עם  | core dumped שגיאת           |
| אחסון גדול בהרבה של 350        | גודל אחסון של כמה עשרות       |                             |
| גייגה.                         | גייגה, הגענו במהירות לאחסון   |                             |
|                                | מלא.                          |                             |
| יצרנו מכונה וירטואלית          |                               | לא תומך בפקודות Virtual box |
| .VMARE2                        |                               | FMA                         |
| ניתן לבצע המרה בתחילת הקוד     |                               | המכשור לא מסוגל לעבוד עם    |
| בcolab לגרסה ישנה יותר כפי     |                               | גרסה tensorflow ומעלה       |
| שהראנו בקוד.                   |                               |                             |
| מעבר לארכיטקטורה של שכבות      | באופן כללי מתבצעת המרה        | המכשור לא מסוגל לעבוד עם    |
| קונבולוציה בלבד כפי שהראנו     | משכבת FC לשכבת קונבולוציה.    | שכבות FC אחת אחרי השניה.    |
| בקוד שהכנו.                    | כאשר משתמשים בשתי שכבות       |                             |
|                                | כאלו אחת אחרי השניה נוצר      |                             |
|                                | מצב בו גודל הכניסה לשכבת      |                             |
|                                | הקונבולוציה גדול מהגודל       |                             |
|                                | המקסימלי (16x16).             |                             |
| עברנו לשכבת אקטיביזציה         | הקוונטייזר לא יודע איך לעבוד  | שכבת dense softmax נכשלת    |
| אחרת בשם סיגמואיד.             | עם סוג המשתנה שיוצא משכבה     | בשלב הקוונטיזציה            |
|                                | (int32) 17                    |                             |
| זוהי אינה בעיה. הDPU לא יכול   | מכיוון שהמשתנה היוצא          | שכבת סיגמואיד לא עובדת על   |
| להריץ את כל סוגי השכבות. אין   | משכבה זו הינו int16 הDPU לא   | DPUה                        |
| בעיה שחלק מהקוד יורץ על        | יכול להריץ אותו ולכן הוא מורץ |                             |
| .CPUn                          | על הCPU.                      |                             |
| הפתרון היִנו כמובן לעבוד ברוחב |                               | לא תומך ברוחב ביט DPU לא    |
| ביט זה בלבד.                   |                               | 8 שאינו                     |

# <u>תמיכה בסוגי שכבות על גבי הDPU</u>

| Operators         | Framework        | Parameters                                                                                            | DPU Support                              |
|-------------------|------------------|-------------------------------------------------------------------------------------------------------|------------------------------------------|
| Const             | Tensorflow       |                                                                                                       | Arbitrary                                |
| Shape             | Tensorflow       |                                                                                                       | Arbitrary                                |
| Identity          | Tensorflow       |                                                                                                       | Arbitrary                                |
| Batchnorm+        | Caffe            |                                                                                                       | Arbitrary                                |
| Neg*              | Tensorflow       |                                                                                                       | Partially                                |
| Mul*              | Tensorflow       |                                                                                                       | Partially                                |
| Sub*              | Tensorflow       |                                                                                                       | Partially                                |
| Gstiling*         | Caffe            | reverse, stride                                                                                       | Partially                                |
| Permute*          | Caffe            | order                                                                                                 | Partially                                |
| Flatten*          | Caffe/TensorFlow | start_dim, end_dim                                                                                    | Partially                                |
| Squeeze*          | Tensorflow       | dims                                                                                                  | Partially                                |
| Reshape*          | Tensorflow       | shape                                                                                                 | Partially                                |
| Stack*            | Tensorflow       | axis                                                                                                  | Partially                                |
| Matmul*           | Tensorflow       | transpose_a, transpose_b                                                                              | Partially                                |
| Strided_Slice*    | Tensorflow       | begin, end, strides,<br>begin_mask, end_mask,<br>ellipsis_mask,<br>new_axis_mask,<br>shrink_axis_mask | Partially                                |
| Mean*             | Tensorflow       | dims, keep_dims                                                                                       | Avgpool-like configurations              |
| Resize*           | Tensorflow       | scale, align_corners, mode                                                                            | scale = 2, false, NEAREST                |
| Pad*              | Tensorflow       | pad, pad_mode,<br>constant_value                                                                      | "Constant"and pad with 0,<br>"SYMMETRIC" |
| Resize_nearest*   | Tensorflow       | align_corners                                                                                         | False                                    |
| DeephiResize*     | Caffe            | scale, mode                                                                                           | Scale = 2, NEAREST                       |
| Upsample2D**      | Tensorflow       | align_corners                                                                                         |                                          |
| Resize_bilinear** | Tensorflow       | align_corners                                                                                         |                                          |
| Space_to_batch**  | Tensorflow       | block_shape, Paddings                                                                                 |                                          |
| Batch_to_space**  | Tensorflow       | block_shape, Paddings                                                                                 |                                          |
| Prior_box**       | Caffe            |                                                                                                       |                                          |
| Softmax**         | Tensorflow       | axis                                                                                                  |                                          |

במהלך בניית הרשת נתקלנו בבעיה עם שכבת Dense Softmax : לא הצלחנו לבצע את שלב הקוונטיזציה. כתוצאה מכך עברנו לעבוד עם שכבת Sigmoid. שכבה זאת יכולה לעבוד רק על גבי הCPU ואינה נתמכת על גבי הDPU. מתוך הטבלה ניתן לראות סוגים שונים של שכבות ולפי העמודה הימנית ביותר (-DPU) Support ניתן לזהות אם היא נתמכת על גבי הDPU

# תובנות כלליות

#### מסקנות שעלו בעקבות תהליך הביצועים והאופטימיזציה

- ביצועים אופטימליים מבחינת סיווג יש לבצע קוונטיזציה על פי שיטה 0 אשר עובדת עם טווח
   רחב של ערכים.
  - ביצועים אופטימליים מבחינת זמנים במקרה של עבודה עם הלוח יש לבצע חלוקה למספר חוטים אשר נותן תוצאה אופטימלית. במקרה שלנו זה התקבל עבור 8 חוטים.
    - יש לעבוד עם רוחב ביט של 8. ●
  - יש לבצע שינויים בפרמטרים בשלב הקוונטיזציה, בשלב הקומפילציה לא נמצאו פרמטרים רלוונטיים.

#### הרצת שכבות על גבי הDPU ועל גבי הCPU

כפי שניתן לראות בתוצאות הקומפילציה, ישנן שכבות אשר מיועדות לריצה על גבי המעבד (ARM) וחלקן מיועדות לריצה על גבי הDPU. נרצה טיפה להסביר על המניע וכיצד המנגנון הפנימי עובד.

התשתיות בפרויקט מתבססות על פרוטוקול ייצוג Xilinx Intermediate Representation - XIR זהו פרוטוקול מבית XILINIX של ייצוג גרף לאלגוריתמי AI. הוא נועד להצגה איכותית של דום פרוטוקול מבית איכותית של ייצוג גרף לאלגוריתמי בלטפורמות חומרה שונות (במקרה רשתות נוירונים ולאחר מכן גם לפרישה נוחה ומהירה על גבי פלטפורמות חומרה שונות (במקרה שלנו DPU על גבי הFPGA).

# באופן כללי התהליך נראה כך:



כאשר המודל (רשת הנוירונים הסופית) מכילה פעולות שהDPU אינו יכול לבצע ברמת החומרה, נוצרים Sub-graph לשכבות הספציפיות הללו והם ממופים לביצוע על גבי ה-CPU. המידע לגבי איזה שכבות ניתן להריץ על גבי ה־CPU ואילו לא, מוחלט בשלב הקומפילציה על ידי המידע לגבי איזה שכבות ניתן להריץ על גבי ה־CPU המודל שלנו ינסה הקומפיילר. בסופו של דבר, כאשר נעזרים ב-CPU החפעולות על גבי ה־CPU וכאשר לא יוכל יבצע חלק מהפעולות על גבי ה־CPU. באופן כללי, ה־CPU--DDR--DPU-.

# קימפול ה-RTL לכרטיס (בדיקת היתכנות)

מתוך המחקר שביצענו, אנו ראינו כי אכן יש אפשרות להצליח לקמפל את קוד הDPU ולהורידו לכרטיס. עם זאת, מדובר בתהליך מורכב, הכולל שלבים רבים של התאמות וכולל בעיות רבות של סנכרון בין גרסאות שונות של תוכנות שונות ושימוש בקבצי תלויות מסוימים. כפי שניתן לראות, המדריך המקורי (מדריך 17) יועד לכרטיס אחר- ZCU-102. אנו מאמינים שבמידה וניתן יהיה להשיג כרטיס זה, עבודת הקימפול והצריבה לכרטיס לאחר מודיפיקציות שונות תתבצע בקלות יותר (אך עדיין מורכבת לאור התלויות המשתנות).

# אחרית דבר

- במקרים מסוימים, אכן הכרטיס בשילוב סביבת Vitis-AI מצליחים להשיג אחוזי דיוק טובים יותר מאשר מאשר סיווג על גבי מחשב ממוצע וזאת הודות לחומרה הייעודית שלו.
  - חברת Xilinx הצליחה להעניק בצורה יחסית פשוטה יכולות של בינה מלאכותית לכל החפץ בכך גם כאלה בעלי מעט מאוד ניסיון בעולם זה.
  - יצירת מודל חדש הינו תהליך מורכב מאוד. לאורך התהליך מהרגע שבו יצרנו מודל חדש ועד להרצתו על גבי הכרטיס, נדרשו מספר רב של התאמות לאורך הדרך.
    - לצערנו המידע על תשתיות Xilinx ברשת הינו מוגבל ולעיתים קרובות קשה מאוד להתמודד עם בעיות שצפות במהלך תהליך הפיתוח של מודל חדש.